机器学习已广泛采用在许多领域,包括高赌注应用,如医疗保健,金融和刑事司法。为了满足公平,问责制和透明度的担忧,这些关键域中的机器学习模型的预测必须是可解释的。通过整合深度神经网络的力量以及基于案例的推理来产生准确尚不可解释的图像分类模型来实现这一挑战的一系列挑战。这些模型通常通过将其与培训期间学习的原型进行比较来分类输入图像,以“这看起来这样的形式产生解释”。然而,来自这一工作行的方法使用空间刚性原型,这不能明确地解释姿势变化。在本文中,我们通过提出基于案例的可解释的神经网络来解决这种缺点,该神经网络提供空间柔性原型,称为可变形的原型部件网络(可变形Protopnet)。在可变形的Protopnet中,每个原型由若干原型部分组成,其根据输入图像自适应地改变其相对空间位置。这使得每个原型能够检测具有更高的空间变换容差的对象特征,因为允许原型内的部件移动。因此,可变形的Protopnet可以明确地捕获姿势变化,提高模型精度和所提供的解释的丰富性。与使用原型的其他基于案例的可解释模型相比,我们的方法实现了竞争精度,提供了更大的上下文的解释,并且更容易训练,从而使得更广泛地利用可解释模型来进行计算机视觉的可解释模型。
translated by 谷歌翻译
When we are faced with challenging image classification tasks, we often explain our reasoning by dissecting the image, and pointing out prototypical aspects of one class or another. The mounting evidence for each of the classes helps us make our final decision. In this work, we introduce a deep network architectureprototypical part network (ProtoPNet), that reasons in a similar way: the network dissects the image by finding prototypical parts, and combines evidence from the prototypes to make a final classification. The model thus reasons in a way that is qualitatively similar to the way ornithologists, physicians, and others would explain to people on how to solve challenging image classification tasks. The network uses only image-level labels for training without any annotations for parts of images. We demonstrate our method on the CUB-200-2011 dataset and the Stanford Cars dataset. Our experiments show that ProtoPNet can achieve comparable accuracy with its analogous non-interpretable counterpart, and when several ProtoPNets are combined into a larger network, it can achieve an accuracy that is on par with some of the best-performing deep models. Moreover, ProtoPNet provides a level of interpretability that is absent in other interpretable deep models. * Contributed equally † DISTRIBUTION STATEMENT A. Approved for public release. Distribution is unlimited.
translated by 谷歌翻译
Deep neural networks are incredibly vulnerable to crafted, human-imperceptible adversarial perturbations. Although adversarial training (AT) has proven to be an effective defense approach, we find that the AT-trained models heavily rely on the input low-frequency content for judgment, accounting for the low standard accuracy. To close the large gap between the standard and robust accuracies during AT, we investigate the frequency difference between clean and adversarial inputs, and propose a frequency regularization (FR) to align the output difference in the spectral domain. Besides, we find Stochastic Weight Averaging (SWA), by smoothing the kernels over epochs, further improves the robustness. Among various defense schemes, our method achieves the strongest robustness against attacks by PGD-20, C\&W and Autoattack, on a WideResNet trained on CIFAR-10 without any extra data.
translated by 谷歌翻译
We are introducing a multi-scale predictive model for video prediction here, whose design is inspired by the "Predictive Coding" theories and "Coarse to Fine" approach. As a predictive coding model, it is updated by a combination of bottom-up and top-down information flows, which is different from traditional bottom-up training style. Its advantage is to reduce the dependence on input information and improve its ability to predict and generate images. Importantly, we achieve with a multi-scale approach -- higher level neurons generate coarser predictions (lower resolution), while the lower level generate finer predictions (higher resolution). This is different from the traditional predictive coding framework in which higher level predict the activity of neurons in lower level. To improve the predictive ability, we integrate an encoder-decoder network in the LSTM architecture and share the final encoded high-level semantic information between different levels. Additionally, since the output of each network level is an RGB image, a smaller LSTM hidden state can be used to retain and update the only necessary hidden information, avoiding being mapped to an overly discrete and complex space. In this way, we can reduce the difficulty of prediction and the computational overhead. Finally, we further explore the training strategies, to address the instability in adversarial training and mismatch between training and testing in long-term prediction. Code is available at https://github.com/Ling-CF/MSPN.
translated by 谷歌翻译
近三年来,异质图神经网络(HGNN)吸引了研究的兴趣。大多数现有的HGNN分为两类。一个类是基于元路径的HGNN,要么需要域知识才能手工制作元路径,要么花费大量时间和内存来自动构建元路径。另一个类不依赖元路径结构。它将均匀的卷积图神经网络(Conv-GNN)作为骨架,并通过引入节点型和边缘型依赖性参数将其扩展到异质图。不管元路径依赖性如何,大多数现有的HGNN都采用浅层探测器(例如GCN和GAT)来汇总邻里信息,并且可能有限地捕获高阶邻里信息的能力。在这项工作中,我们提出了两个异构图树网络模型:异质图树卷积网络(HETGTCN)和异质图树注意网络(HETGTAN),它们不依赖元路径来在两个节点特征和图形结构中编码异质性。在三个现实世界的异质图数据上进行了广泛的实验表明,所提出的HETGTCN和HETGTAN具有有效的效率,并且一致地超过了所有最先进的HGNN基准在半监视的节点分类任务上,并且可以深入不受损害的性能。
translated by 谷歌翻译
本文的目的是通过互动地完善对人类绩效的挑战结构的自动细分,这要么是由于可用注释的稀缺性或问题本身的难度性质,例如,在癌症或小型器官方面的难度。具体而言,我们为交互式细分(TIS)提出了一种基于变压器的新型体系结构,该体系结构将精炼任务视为将与最终用户提供的点击相似的像素分组的过程。我们提出的架构由变压器解码器变体组成,该变体自然可以实现与注意机制的特征比较。与现有方法相反,我们提出的TIS不仅限于二进制细分,因此允许用户为任意数量的类别编辑掩码。为了验证提出的方法,我们对三个具有挑战性的数据集进行了广泛的实验,并证明了比现有最新方法的卓越性能。项目页面为:https://wtliu7.github.io/tis/。
translated by 谷歌翻译
受认知科学中知名的预测编码理论的启发,我们为视觉框架预测任务提出了一种新型的神经网络模型。在本文中,我们的主要工作是结合预测编码和深度学习体系结构的理论框架,为视觉框架预测设计有效的预测网络模型。该模型分别由一系列复发和卷积单元组成,分别形成自上而下和自下而上的流。它学会了以视觉序列预测未来的帧,网络中的每一层中的弯曲器可以从上到下进行本地预测。我们模型的主要创新是,该层上神经单位的更新频率随着网络级别的提高而降低,从时间维度的角度来看,模型中的导致模型看起来像金字塔,因此我们称其为金字塔预测性网络(PPNET)。特别是,这种类似金字塔的设计与预测性编码框架涉及的神经科学发现中的神经元活性一致。根据实验结果,该模型与现有作品显示出更好的紧凑性和可比的预测性能,这意味着较低的计算成本和较高的预测准确性。代码将在https://github.com/ling-cf/ppnet上找到。
translated by 谷歌翻译
异质图卷积网络在解决异质网络数据的各种网络分析任务方面已广受欢迎,从链接预测到节点分类。但是,大多数现有作品都忽略了多型节点之间的多重网络的关系异质性,而在元路径中,元素嵌入中关系的重要性不同,这几乎无法捕获不同关系跨不同关系的异质结构信号。为了应对这一挑战,这项工作提出了用于异质网络嵌入的多重异质图卷积网络(MHGCN)。我们的MHGCN可以通过多层卷积聚合自动学习多重异质网络中不同长度的有用的异质元路径相互作用。此外,我们有效地将多相关结构信号和属性语义集成到学习的节点嵌入中,并具有无监督和精选的学习范式。在具有各种网络分析任务的五个现实世界数据集上进行的广泛实验表明,根据所有评估指标,MHGCN与最先进的嵌入基线的优势。
translated by 谷歌翻译
当前的场景图生成研究(SGG)着重于解决生成无偏见的场景图的长尾问题。但是,大多数偏见的方法都过度强调了尾巴谓词,并低估了整个训练的头部,从而破坏了头部谓词特征的表示能力。此外,这些头部谓词的受损特征会损害尾巴谓词的学习。实际上,尾巴谓词的推论在很大程度上取决于从头部谓词中学到的一般模式,例如“站在”上“依赖”。因此,这些偏见的SGG方法既不能在尾巴谓词上实现出色的性能,也不能满足头部的行为。为了解决这个问题,我们提出了一个双分支混合学习网络(DHL),以照顾SGG的头部谓词和尾巴,包括粗粒度的学习分支(CLB)和细粒度的学习分支(FLB) 。具体而言,CLB负责学习专业知识和头部谓词的鲁棒特征,而FLB有望预测信息丰富的尾巴谓词。此外,DHL配备了分支课程时间表(BCS),以使两个分支机构一起工作。实验表明,我们的方法在VG和GQA数据集上实现了新的最新性能,并在尾巴谓词和头部的性能之间进行了权衡。此外,对两个下游任务(即图像字幕和句子到刻画检索)进行了广泛的实验,进一步验证了我们方法的概括和实用性。
translated by 谷歌翻译
场景图生成(SGG)代表对象及其与图形结构的交互。最近,许多作品致力于解决SGG中的不平衡问题。但是,在整个训练过程中低估了头部谓词,他们破坏了为尾部提供一般特征的头部谓词的特征。此外,对尾部谓词的过多注意会导致语义偏差。基于此,我们提出了一个新颖的SGG框架,学习以从头到尾生成场景图(SGG-HT),其中包含课程重新定位机制(CRM)和语义上下文上下文模块(SCM)。 CRM首先学习头/简单样品,以获得头部谓词的稳健特征,然后逐渐专注于尾部/硬质。建议通过确保在全球和局部表示中生成的场景图与地面真相之间的语义一致性来缓解语义偏差。实验表明,SGG-HT显着减轻了视觉基因组上最先进的表现。
translated by 谷歌翻译